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ORIGINAL 1 

PROCEDE ET DISPOSITIF DE RECONNAISSANCE VOCALE DANS DES 
ENVIRON N EM ENTS A NIVEAU DE BRUIT FLUCTUANT 

La presente invention est relative a un procede de reconnaissance 
vocale dans un environnement sonore dans lequel le niveau de bruit peut 
fluctuer et un digpositif de reconnaissance vocale dans un signal acoustique 
presentant du bruit susceptible de fluctuer. 
5 L'invention concerne done le traitement de signaux acoustiques 

contenant de la parole captee en milieu bruite, ce bruit pouvant varier dans le 
temps. Elle trouve son application plus particulierement, mais pas 
exclusivement, dans le cadre de la reconnaissance vocale a bord de tous 
types de vehicules par exemple dans les cockpits d'aeronefs ou dans les 

10 habitacles de vehicules automobiles. Elle s'applique egalement aux 
communications telephoniques ou radio telephoniques en milieu bruite dans 
la rue en ville par exemple. 

A propos de i'environnement sonore dans un cockpit d'aeronef, 
les bruits resultent des moteurs, de la dimatisation, de la ventilation, des 

15 equipements de bord, des bruits aerodynamiques. Dans cette application, les 
bruits sont variables et tres dependants du regime des moteurs. Les bruits ne 
seront pas du tout les memes lorsque Taeronef est a I'arret, en phase de 
roulage, en phase de decollage ou d'atterrissage, en regime stabilise de 
croisiere. Ces bruits sont captes, au moins partiellement, par un microphone 

20 dans lequel parle le pilote ou un autre membre de Tequipage et ils masquent 
le signal utile, e'est a dire les conversations que Ton cherche a reconnaitre. 

De la meme maniere, I'environnement sonore n'est pas du tout le 
meme dans un vehicule automobile lorsqu'il est a I'arret ou en marche. En 
ville, le niveau sonore est tres dependant de la circulation automobile. 

25 Dans Tart connu, les systemes de reconnaissance vocale les plus 

simples, qui ne prennent pas en compte le bruit, comportent au moins trois 
blocs comme illustre a la figure 1a. Ces blocs sont : un bloc 1 d'acquisition 
du signal de parole, un bloc 2 de parametrisation ou chaine de 
parametrisation et un bloc 3 de reconnaissance de formes. 

30 Dans le bloc d'acquisition 1, le signal acoustique traite est en fait 

un signal de parole capte par un transducteur electroacoustique. Ce signal 
est numerise par echantillonnage et decoupe en un certain nombre de 
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trames recouvrantes ou non, de meme duree ou non. En traitement de la 
parole, il est usuel de considerer que des regimes stationnaires s'etablissent 
sur des durees comprises entre 10 et 40 ms. Ce sont ces intervalles de 
temps qui sont denomrnes trames. Le recouvrement entre trames est 
5 preconise a cause de certains phonemes dits « plosifs » correspondant aux 
sons « p », « t » )t « k », « b », « d », « g » qui ont une duree inferieure a celle 
d'une trame. Un phoneme est la plus petite unite presente dans la parole 
susceptible par sa presence de changer ia signification d'un mot. 

Dans le bloc 2 de parametrisation, on associe chaque trame a un 

io vecteur de parametres qui traduit ('information acoustique contenue dans la 
trame. II y a plusieurs methodes pour determiner un vecteur de parametres. 
Un exemple classique de methode est la methode qui utilise les coefficients 
cepstraux de type MFCC sigle en langue anglaise de « Mel Frequency 
Cepstral Coefficient ». 

!5 Le bloc 2 de parametrisation represents sur la figure 1 est 

generique. II fait intervenir une estimation de Penergie spectrale fenetree et 

englobe done les chaines de parametrisation de type MFCC. II comporte 

plusieurs modules 21, 22, 23, parmi lesquels le module 21 qui permet de 
determiner Penergie spectrale de chaque trame dans un certain nombre de 

20 canaux frequentiels Nb ou fenetres. II re?oit chaque trame et delivre, pour 
chacune d'entre elles, une valeur d'energie spectrale ou coefficient spectral 
par canal frequentiel. Le module 22 effectue une compression des Nb 
coefficients spectraux obtenus au module 21 pour tenir compte du 
comportement du systeme auditif humain. Le module 23 effectue une 

25 transformation des coefficients spectraux compresses, ces coefficients 
spectraux compresses transformes sont les parametres du vecteur de 
parametres recherche. 

Le bloc 3 de reconnaissance de formes comprend lui-meme au 
moins deux modules : un module 31 de reconnaissance de formes 

30 proprement dit et un module 32 de memorisation de references acoustiques 
appele espace de references. Le module 31 evalue la serie des vecteurs de 
parametres issue de la parametrisation par rapport a des references 
obtenues lors d'une phase d'apprentissage, ces references traduisent les 
empreintes acoustiques de chaque phrase, chaque mot ou chaque 

35 phoneme, plus generalement chaque commande. A Pissue de la derniere 
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trame, ce qui correspond generalement a la fin d'une commande, la 
comparaison donne soit une distance entre la commande testee et des 
commandes de reference, la commande de reference presentant la distance 
la plus faible est reconnue, soit une probabilite pour que la serie des vecteurs 
5 de parametres appartiennent a une suite de phonemes. Les signaux 
numeriques representant une commande reconnue sont transmis a un 
dispositif d'utilisation 4. 

Les algorithmes classiquement utilises pendant cette phase sont 
dans le premier cas de type DTW sigle anglo-saxon pour Dynamic Time 
10 Warping ou, dans le second cas de type HMM sigle anglo-saxon pour Hidden 
Markov Models. 

Mais le bruit est la principale source d'erreur dans le processus de 
reconnaissance vocale. Le signal acoustique traite est le signal de parole 
additionne au signal de bruit. Le signal de bruit masque le signal de parole, il 

15 entraine une perte de resolution de la reconnaissance vocale. Plus le niveau 
de bruit est fort plus la perte de la reconnaissance est importante. 

Pour essayer de s'affranchir du bruit, on peut introduire un 
traitement de debruitage avant la determination de I'energie spectrale de 
maniere a minimiser le signal de bruit dans le signal acoustique traite. Ce 

20 debruitage peut se faire de nombreuses manieres et notamment comme 
explique dans la demande de brevet francpais FR-2 765 715. Dans cette 
demande de brevet, le debruitage est realise a partir des caracteristiques 
spectrales d'un modele de bruit mis en memoire et utilise un filtre de Wiener 
parametre par les caracteristiques spectrales du modele de bruit. Cette 

25 demande de brevet explique la recherche automatique et permanente du 
modele de bruit et I'etape de debruitage. Sur la figure 1b, on retrouve le bloc 
d'acquisition 1, le bloc de parametrisation 2 et le bloc de reconnaissance de 
formes 3 comme sur la figure 1a mais un bloc de detection de parole 7, un 
bloc de moderation du bruit 5 et un bloc de debruitage 6 apparaissent entre 

30 le bloc d'acquisition 1 et le bloc de parametrisation 2. 

Mais malgre le debruitage, le signal acoustique debruite transmis 
au bloc de parametrisation 2 reste entache d'un bruit residuel d'amplitude 
non negligeable qui perturbe le processus de reconnaissance vocale. 
L'adjonction du traitement de debruitage n'est pas suffisante pour lutter 

35 contre le bruit. 
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On a cherche a utiiiser des chaines de parametrisation qui soient 
les plus robustes possible, c'est a dire qui soient les moins affectees possible 
par le bruit. De telles chaines traitent de maniere preponderate les parties 
les plus energetiques du signal acoustique. En effet, plus une composante 
5 est energetique, moins elle est vulnerable au bruit. La contrepartie de la 
robustesse est la>perte de la sensibilite. 

Le probleme dans les applications envisagees, est que le bruit 
peut varier, il peut etre par moment quasi inexistant et par moment tres fort. 
Le traitement du signal acoustique capte doit etre performant quel que soit le 

10 niveau de bruit. Un compromis optimal entre robustesse et sensibilite doit 
etre obtenu. C'est une premiere difficulty. Le probleme se pose encore avec 
plus d'acuite si le niveau de bruit est tres fortement variable dans un temps 
tres court. C'est le cas par exemple de ['automobile ou de I'aeronef qui 
initialement arretes demarrent. 

-i 5 La presente invention s'est fixee comme but d'adapter en temps 

reel la parametrisation et la reconnaissance de formes au bruit apres avoir 
identifie une transition dans le bruit ambiant de maniere a rendre la 
reconnaissance vocale la plus robuste possible en presence de bruit fort et la 
plus sensible possible lorsque le bruit est inexistant ou quasi inexistant. 

20 Pour y parvenir le procede de reconnaissance vocale dans un 

signal acoustique selon I'invention comprend : 

une phase de numerisation et de decoupage en une suite de trames 
temporelles du signal acoustique bruite, 

une phase de parametrisation de trames temporelles contenant de la parole 
25 de maniere a obtenir t par trame, un vecteur de parametres dans le domaine 
frequentiel, ce vecteur de parametres traduisant le contenu acoustique de la 
trame, 

une phase de reconnaissance de formes dans laquelle on evalue les 
vecteurs de parametres par rapport a des references preenregistrees dans 
30 un espace de references lors d'une phase d'apprentissage prealable, de 
maniere a obtenir la reconnaissance par determination d'au moins une 
reference la plus proche des vecteurs de parametres, 

- une phase de recherche reiterative de modeles de bruit successifs dans la 
suite des trames temporelles, un nouveau modele de bruit rempla?ant un 
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modele de bruit courant, un modele de bruit comportant plusieurs trames 
successives, 

caracterise en ce qu'il comporte 

- une phase de recherche d'une transition de bruit entre le nouveau modele 
5 de bruit et le modele courant, 

et lorsqu'une transition de bruit a ete detectee, en ce qu'il comporte une 
phase de mise a jour de I'espace de references en fonction du nouveau 
modele de bruit, la phase de parametrisation incluant une etape d'adaptation 
des parametres au nouveau modele de bruit. 

10 Plus precisement la phase de recherche d'une transition de bruit peut 

comporter une etape de recherche d'une incompatibilite energetique et/ou 
une etape de recherche d'une incompatibilite spectrale entre le nouveau 
modele de bruit et le modele courant, la detection d'une incompatibilite 
traduisant une transition de bruit. 

15 L'etape de recherche d'une incompatibilite energetique peut 

comporter la comparaison du rapport entre I'energie moyenne du nouveau 
modele de bruit et I'energie moyenne du modele de bruit courant avec un 
seuil bas et un seuil haut, une incompatibilite energetique etant trouvee si le 
rapport se place a I'exterieur de I'intervalle borne par les deux seuils. 

20 Pour eviter des adaptations et des mises a jour trop frequentes 

lorsque le bruit n'est pas vraiment genant, l'etape de recherche d'une 
incompatibilite energetique peut comporter egalement une comparaison de 
I'energie moyenne du nouveau modele de bruit et de I'energie moyenne du 
modele de bruit courant a seuil d'energie plancher au-dessous duquel le bruit 

25 est negligeable, I'incompatibilite energetique determinee par la comparaison 
du rapport entre I'energie moyenne du nouveau modele de bruit et I'energie 
moyenne du modele de bruit courant etant ignoree lorsque I'energie 
moyenne du nouveau modele de bruit et I'energie moyenne du modele de 
bruit courant sont toutes deux inferieures au seuil d'energie plancher, 

30 L'etape de recherche d'une incompatibilite spectrale peut comporter, a 

partir de coefficients spectraux traduisant respectivement I'energie spectrale 
des trames du modele de bruit courant et I'energie spectrale des trames du 
nouveau modele de bruit dans au moinslcanal frequentiel, une comparaison 
du rapport entre le coefficient spectral associe au canal frequentiel du 

35 nouveau modele de bruit et le coefficient spectral associe au meme canal 
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frequentiel du modele de bruit courant avec un seuil bas et un seuil haut, une 
incompatibility spectrale etant trouvee si le rapport se place a I'exterieur de 
I'intervalle borne par les deux seuils. 

Toujours pour eviter des mises a jour et des adaptations trop 
5 frequentes qui ne seraient pas vraiment justifiees, I'etape de recherche d'une 
incompatibilite spectrale peut comporter egalement, pour au moins un canal 
frequentiel, une comparaison du coefficient spectral du nouveau modele de 
bruit dans ce canal frequentiel et du coefficient spectral du modele de bruit 
courant dans ce canal frequentiel a un coefficient spectral, plancher dans ce 

10 canal frequentiel, plancher au-dessous duquel le bruit est negligeable, une 
incompatibilite spectrale determinee par la comparaison du rapport entre 
coefficients spectraux etant ignoree lorsque, dans ce canal frequentiel, les 
coefficients spectraux du nouveau modele et du modele courant sont tous 
deux inferieurs au coefficient spectral plancher. 

15 La phase de parametrisation peut comporter une etape de 

determination de coefficients spectraux associes chacun a un canal 
frequentiel traduisant chacun Tenergie spectrale d'une trame contenant de la 
parole dans le canal frequentiel, 

I'etape d'adaptation des parametres comportant une determination, pour 
20 chaque coefficient spectral, d'un operateur de robustesse qui traduit la 
confiance a accorder au coefficient spectral par rapport au niveau de bruit, 
dans le meme canal frequentiel, du nouveau modele de bruit ayant 
declenche la transition,- une ponderation du coefficient spectral avec 
I'operateur de robustesse, une determination du vecteur de parametres a 
25 partir des coefficients spectraux ponderes. 

L'operateur de robustesse pour la parametrisation peut verifier la 
relation suivante : 



Bj tPar etant le coefficient spectral et P(B iin ouvmod) un parametre dependant du 
30 niveau de bruit du nouveau modele de bruit ayant declenche la transition, 
dans le canal frequentiel i. 

La phase de mise a jour de I'espace de references peut comporter, a 
partir de coefficients spectraux de base associes chacun a un canal 
frequentiel, traduisant chacun I'energie spectrale d'une trame de base 



OpRob(B ipaf )=imax 0,25 + 




obtenue lors de la phase d'apprentissage, la determination d'un operateur de 
robustesse pour chaque coefficient spectral de base, cet operateur de 
robustesse traduisant la confiance a accorder au coefficient spectral par 
rapport au niveau de bruit, 
5 la ponderation des coefficients spectraux de base avec les operateurs de 
robustesse respectifs, 

I'elaboration des references mises a jour avec les coefficients spectraux 
ponderes. 

L'operateur de robustesse pour la mise a jour de I'espace de 
10 references peut verifier la relation suivante : 



OpRob(B i(bas )= max 
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Bj.bas etant le coefficient spectral de base et P(B iin ouvmod) un parametre 
dependant du niveau de bruit du nouveau modele de bruit ayant declenche la 
transition, dans le canal frequence! i. 

Lorsque les references sont elaborees a partir de coefficients 
15 spectraux de base compresses, en vue de gagner en temps de calcul, le 
procede peut convertir les coefficients spectraux de base compresses en les 
coefficients spectraux de base compresses et ponderes en utilisant une table 
de conversion. 

La table de conversion contient les coefficients spectraux de base non 
20 compresses obtenus par application de ('inverse de la fonction de 
compression aux coefficients de base compresses et le procede comporte : 
une determination de l'operateur de robustesse pour chacun des coefficients 
spectraux de base non compresses, 

une ponderation des coefficients spectraux de base non compresses, 
25 une compression de coefficients spectraux de base non compresses et 

ponderes de maniere a obtenir les coefficients spectraux de base 

compresses et ponderes. 

Ce procede s'applique avec des references formees d'une suite de 

trames temporelles corresp^ndant a un ou plusieurs mots, cette suite de 
30 trames etant identifiee par une serie de vecteurs de parametres, ces 

parametres etant obtenus par compression de coefficients spectraux. 

II s'applique egalement avec des references formees d'une suite de 

trames temporelles correspondant a un ou plusieurs phonemes, cette suite 
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de trames etant identifiee par le centre et I'ecart type d'une ou plusieurs 
fonctions gaussiennes, ce centre et cet ecart type dependant des parametres 
des vecteurs de parametres des trames. 

Pour une meilleure reconnaissance, une phase de debruitage des 
5 trames temporelles contenant de la parole peut prendre place avant la phase 
de parametrisation. 

La presente invention concerne egalement un systeme de 
reconnaissance vocale dans un signal acoustique bruite pour la mise en 
oeuvre du procede. II comprend : 
10 des moyens pour acquerir le signal acoustique, le numeriser et le decouper 
en trames temporelles, 

un chaine de parametrisation pour traduire les trames temporelles contenant 
de la parole en des vecteurs de parametres dans le domaine frequentiel, 
des moyens de reconnaissance de formes avec un espace de references 
15 acquises lors d'un apprentissage, pour evaluer les vecteurs de parametres 
issus de la chaine de parametrisation par rapport aux references, de maniere 
a obtenir la reconnaissance par determination d'une reference se 
rapprochant le plus des vecteurs de parametres, 

des moyens de modelisation du bruit pour elaborer de maniere reiterative 
20 des modeles de bruit, un nouveau modele de bruit remplagant un modele de 
bruit courant, 

des moyens de detection d'une transition de bruit entre le nouveau modele 
de bruit et le modele de bruit courant, 

des moyens pour adapter la chaine de parametrisation au bruit du nouveau 

25 modele de bruit ayant declenche la transition de bruit, 

des moyens pour mettre a jour les references de I'espace de references en 
fonction du niveau de bruit du nouveau modele de bruit ayant declenche a la 
transition de bruit. 

Les moyens pour mettre a jour les references de I'espace de 

30 references peuvent comporter un premier espace memoire pour stocker les 
references mises a jour, ces references mises a jour devant remplacer des 
references courantes utilisees pour la reconnaissance de formes avant la 
detection de la transition de bruit, ces references courantes etant stockees 
dans un second espace memoire. 
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II peut aussi comporter un espace memoire pour stocker cles 
coefficients spectraux de base compresses obtenus a partir de coefficients 
spectraux de base associes chacun a un canal frequentiel, ces coefficients 
spectraux de base traduisant chacun I'energie spectrale d'une trame de base 
5 issue de I'apprentissage, une table de conversion pour convertir les 
coefficients spectraux de base compresses en des coefficients spectraux de 
base compresses et ponderes chacun par un operateur de robustesse 
fonction du niveau de bruit du nouveau modele de bruit ayant declenche la 
transition de bruit et du coefficient spectral de base a ponderer, ces 
10 coefficients spectraux de base compresses et ponderes etant utilises pour la 
mise a jour des references de I'espace de references. 

II est preferable qu'il comporte des moyens pour debruiter les trames 
temporelles contenant de la parole avant leur parametrisation. 

[.'invention sera mieux comprise et d'autres caracteristiques et 
15 avantages apparaitront a la lecture de la description qui suit en references 
aux figures annexees, parmi lesquelles : 

- les figures 1a, 1b (deja decrites) illustrent schematiquement, 
sous forme de bloc diagrammes deux systemes de reconnaissance vocale 
connus, celui illustre a la figure 1 b incluant un traitement de debruitage ; 

20 - la figure 2 illustre un systeme de reconnaissance vocal pour la 

mise en oeuvre du precede de reconnaissance vocale selon ['invention ; 

- les figures 3a t 3b illustrent la detection de la transition de bruit ; 

- la figure 4 illustre ['evolution de I'operateur de robustesse en 
fonction des valeurs du coefficient spectral pour deux fonctions operatrices 

25 differentes ; 

- la figure 5 illustre en details un exemple de chaine de 
parametrisation du systeme de reconnaissance vocale selon I'invention ; 

- la figure 6 illustre un exemple de mise a jour de I'espace de 
references du systeme de reconnaissance vocale selon ['invention ; 

30 - la figure 7 est un graphique permettant de comparer le taux de 

reconnaissance vocale en fonction du niveau de bruit avec d'une part un 
systeme de reconnaissance vocale classique et d'autre part le systeme de 
reconnaissance vocale selon I'invention. 

On se refere a la figure 2 qui represente un exemple de systeme de 

35 reconnaissance vocale conforme a I'invention. Le systeme de 




reconnaissance vocale reference 100 regoit en entree un signal acoustique 
temporel qui est forme, par moment au moins, d'un signal utile, la parole 
recherchee, auquel s'ajoute un signal de bruit, du bruit seul ou de la parole 
seule. On retrouve comme sur les figures 1a, 1b un bloc d'acquisition 1 qui 
5 regoit le signal acoustique, le numerise par echantillonnage et le decoupe en 
trames d'une pluralite d'echantillons. Un premier module 7 classique en soit 
re?oit les trames et discrimine dans leur signal acoustique le signal utile du 
signal de bruit. La discrimination entre parole et bruit est un traitement de 
signal classique et bien connu. Differentes methodes sont connues et elles 

10 reposent sur les constations suivantes. Les bruits et la parole se superposent 
en terme d'energie, de sorte qu'un signal acoustique contenant de la parole 
et du bruit ambiant contient plus d'energie qu'un signal de bruit ambiant seuL 
Le bruit ambiant possede une energie relativement stable et faible a court 
terme. La parole est le plus souvent precedee d'un bruit de respiration qui 

15 s'eteint quelques dizaines a centaines de millisecondes avant la premiere 
emission de parole, de sorte qu'on ne retrouve que le bruit ambiant seul juste 
avant remission de parole. Les spectres de certains phonemes, notamment 
les phonemes correspondant aux voyelles et a des consonnes voisees, 
possedent une periodicite caracteristique. 

20 Lorsque de la parole est detectee, les trames de signal utile contenant 

a la fois la parole a reconnaitre et le bruit ambiant sont envoyees vers le 
module 2 de parametrisation qui sera decrit ulterieurement. Avant de debuter 
la parametrisation effective, on peut prevoir un traitement de debruitage 
illustre par le bloc 6 decrit ulterieurement. On trouve ensuite dans la chalne 

25 de reconnaissance vocale le bloc 3 de reconnaissance de formes qui delivre 
de la parole reconnue 4, ce bloc de reconnaissance de formes inclut I'espace 
de references 32 

En sortie du bloc de detection de parole 7, les trames de bruit seul 
sont isolees et envoyees a un module de modelisation du bruit 5. 
30 L'elaboration d'un modele de bruit a partir d'un signal bruite est classique en 
soit. Un procede de recherche reiterative de modeles de bruit tout 
particulierement adapte aux applications principales visees par le systeme de 
reconnaissance vocale de I'invention est decrit dans la demande frangaise 
FR- 2 765 715 incorporee a la presente demande. 
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Un modele de bruit est forme de trames successives dont I'energie est 
sensiblement la meme et est inferieure a un seuil. 

La recherche automatique et reiterative d'un modele de bruit consiste 
a analyser les trames successives de maniere a en trouver N successives 
5 dont les energies sont proches les unes des autres. Pour cela on recherche 
si le rapport entrp I'energie de signal contenue dans une trame et I'energie 
de signal contenue dans une trame voisine est situe a I'interieur d'une 
gamme de valeurs determinee. Lorsqu'une telle succession de trames a ete 
trouvee, on stocke les valeurs numeriques de tous les echantillons de ces 

10 trames. Cet ensemble de valeurs numeriques constitue le modele courant. 
L'analyse des trames continue pour trouver un nouveau modele plus adapte, 
soit parce qu'il traduit mieux le bruit ambiant, soit parce que le bruit ambiant 
a evolue. Si on trouve au moins N autres trames successives repondant aux 
memes conditions de stabilite energetique, on compare I'energie moyenne 

15 de cette nouvelle succession de trames a I'energie moyenne du modele 
courant, et si le rapport entre I'energie moyenne de la nouvelle succession et 
I'energie moyenne du modele courant est inferieur a un seuil de 
remplacement, de preference legerement superieur a un, la nouvelle 
succession de trames constitue un nouveau modele etre stocke et qui va 

20 remplacer le modele courant. L'energie moyenne d'un modele de bruit est 
egale a la somme des energies des N trames qui le constituent divisee par 

N. 

Si le bruit evolue lentement, revolution du bruit est prise en compte, 
par le remplacement des modeles du fait que le seuil de remplacement est 

25 superieur a un. Mais si le bruit evolue rapidement dans le sens croissant, 
revolution risque de ne pas etre pris en compte si on ne prevoit pas, de 
temps en temps, une re-initialisation de la recherche d'un modele de bruit. 
Par exemple, dans ['application des aeronefs, il ne faudrait pas que pendant 
le decollage le modele de bruit reste fige sur ce qu'il etait lorsque I'aeronef 

30 est a I'arret du fait qu'un modele de bruit n'est remplace que par un modele 
moins energetique. Une re-initialisation simple consiste a remplacer de 
temps en temps un modele courant par un nouveau modele 
independamment de la comparaison des energies moyennes du modele 
courant et du nouveau modele. 
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Comme dans Tart anterieur, le modele courant sert dans la phase de 
debruitage illustree au bloc 6. Ce bloc 6 re?oit le signal acoustique contenant 
le signal utile et le signal de bruit. Le debruitage peut se faire en travaillant 
sur les transformees de Fourrier du signal acoustique a debruiter. La 
5 transformee de Fourrier du signal acoustique a debruiter est effectuee trame 
par trame et fournit pour chaque trame des echantillons associes chacun a 
un canal frequentiel. Ces echantillons sont filtres de preference dans un filtre 
de Wiener. Le filtre de Wiener possede autant de coefficients que de canaux 
frequentiels. Chaque echantillon est multiplie par le coefficient respectif du 
10 filtre. Les coefficients sont calcules a partir de la densite spectrale du signal 
acoustique bruite et de la densite spectrale du modele de bruit. Les 
echantillons d'une trame multiplies par le coefficient correspondant forment la 
trame debruitee. 

Mais maintenant, la moderation du bruit sert egalement pour adapter 

1 5 la parametrisation au bruit et mettre a jour I'espace de references en fonction 
du bruit. Le bloc 50 permet d'identifier un changement dans le bruit ambiant 
qui justifie une mise a jour de I'espace de references et une modification de 
la chaine de parametrisation des que de la parole est detectee. Dans le bloc 
50 on detecte une transition de bruit entre le nouveau modele de bruit et le 

20 modele de bruit courant. La detection de la transition de bruit comporte une 
etape de recherche d'une incompatibility energetique et/ou spectrale entre le 
nouveau modele de bruit et le modele courant. 

Une transition en energie se produit lorsque le niveau general du bruit 
augmente ou baisse. Une transition en spectre se produit lorsque la forme du 

25 spectre change sans pour autant que I'energie moyenne soit necessairement 
sensiblement modifiee. 

On se refere a la figure 3a. Pour statuer sur I'incompatibilite 
energetique au bloc 501 , on compare I'energie moyenne Enouvmod du nouveau 
modele de bruit a I'energie moyenne E m0 dcour du modele de bruit courant. Le 

30 modele de bruit courant sert dans la parametrisation en cours tant qu'une 
transition de bruit n'est detectee. On calcule le rapport entre les deux 
energies moyennes Enouvmod / E mod cour- La regie est la suivante : si ce rapport 
sort d'un intervalle borne par deux seuils S et S' dont Tun S est superieur a 
un et I'autre S' est inferieur a un, il y a incompatibility entre les deux modeies. 

35 Une transition de bruit est detectee. Les deux seuils S et S' seront de 
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preference inverses Tun de Pautre S' = 1/S, de fait la determination d'un seul 
des deux suffit. Par exemple une valeur typique est S = 4 et done S'= 0,25. 
La valeur du seuil permet de fixer la frequence de detection des transitions et 
done la frequence de modification de la chalne de parametrisation et de mise 
5 a jour de I'espace de references. On cherche a eviter une frequence trop 
grande qui imposerait un flux de mise a jour de I'espace de references 
incompatible avec la puissance de calcul a disposition. Si une incompatibilite 
energetique est detectee, on va mettre a jour I'espace de references et 
adapter la parametrisation au nouveau modeie de bruit qui a genere la 
10 transition de bruit. Cette adaptation et cette mise a jour seront expliquees 
ulterieurement. 

Si aucune incompatibilite energetique est detectee, on effectue une 
rec herche d'incompatibilite spectrale au bloc 502. On aurait pu commencer 
par la recherche de I'incompatibilite spectrale, I'ordre n'a pas d'importance. 

15 Pour statuer sur Tincompatibilite spectrale, on va passer dans le 

domaine frequentiel, on compare pour chacun des canaux frequentiels i (i 
entier compris entre 1 et Nb) t le coefficient spectral Bj.nouvmod associe au 
canal i du nouveau modeie de bruit au coefficient spectral Bj tm0 dcour associe 
au meme canal du rnodele de bruit courant. Chaque coefficient spectral 

20 traduit Tenergie spectrale de toutes les trames d'un modeie de bruit dans le 
canal frequentiel considere. 

Pour obtenir les coefficients spectraux d'un modeie de bruit on 
applique une transformee de Fourrier aux trames du modeie de bruit de 
maniere a obtenir une repartition frequentielle de ('amplitude des signaux de 

25 bruit de chacune des trames. On eleve au carre cette amplitude de maniere 
a obtenir le spectre d'energie. On calcule ensuite le spectre moyen d'energie 
du modeie en sommant, pour une meme bande frequentielle, les spectres 
d'energie de toutes les trames et en divisant par le nombre N de trames du 
modeie. Pour tenir compte des particularites du systeme auditif humain, on 

30 applique au spectre moyen d'energie Nb fenetres de ponderation, 
preferentiellement des fenetres de Bark au nombre de seize, qui 
reproduisent la forme des filtres du systeme auditif humain de maniere a 
obtenir les Nb coefficients spectraux recherches. 

Les caracteristiques des fenetres de Bark sont bien connues dans 

35 I'etat de l'art et il est inutile de les decrire plus avant. Pour plus de details, on 




14 

pourra se referer a I'ouvrage : «La parole et son traitement automatique», 
Calliope, Edition MASSON, 1989 et plus particulierement a sa page 268. 

On peut ajouter que les premieres fenetres, correspondant aux 
frequences les plus basses, presentent un pic de forte amplitude et une 
5 bande passante etroite et que I'amplitude de celles de rang plus eleve 
decrolt alors qQe leur bande passante s'elargit. De plus les fenetres 
contigues se recouvrent deux a deux. 

On calcule, le rapport entre le ieme (i entier compris entre 1 et Nb) 
coefficient spectral Bj.nouvmod du nouveau modele de bruit et le ieme 

10 coefficient spectral Bj, m0 dcour du modele de bruit courant Ces iemes 
coefficients spectraux sont associes au canal frequentiel i. La regie 
d'incompatibilite est la suivante : si ce rapport Bj.nouvmod/Bj.modcour sort d'un 
intervalle borne par deux seuils Sf et Sf dont Tun Sf est superieur a un et 
I'autre Sf est inferieur a un, il y a incompatibilite entre les deux modeles. Une 

15 transition de bruit est detectee. Les deux seuils Sf et Sf seront de preference 
inverses Tun de I'autre Sf = 1/Sf, de fait la determination d'un seul des deux 
suffit Par exemple une valeur typique est Sf = 9 et done Sf= 1/9. De la 
meme maniere que precedemment, la valeur des seuils est adaptee pour 
minimiser les transitions qui ne seraient pas significatives. 

20 Si aucune incompatibilite n'est detectee, les deux modeles sont 

compatibles, il n'y a pas de modification significative du bruit aucune mise a 
jour de I'espace de references et adaptation de la parametrisation n'est a 
realiser. Le nouveau modele quant a lui remplace le modele courant et il va 
servir pour le debruitage. 

25 Si une incompatibilite spectrale entre modeles est detectee, on va 

mettre a jour I'espace de references et adapter la parametrisation au 
nouveau modele de bruit qui a genere la transition de bruit Cette adaptation 
et cette mise a jour seront expliquees ulterieurement. 

li est toutefois preferable, toujours dans I'optique de reduire la 

30 frequence des mises a jour, d'eviter de faire des mises a jour si le bruit du 
nouveau modele et le bruit du modele courant sont faibles, car dans cette 
situation ils genent peu ou pas la reconnaissance vocale. On se refere a la 
figure 3b. 

On peut prevoir dans cette optique, lorsqu'une incompatibilite 
35 energetique a ete detectee, de comparer au bloc 511, Tenergie E n0 uvmod du 
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nouveau modele de bruit et celle Emodcour du modele de bruit courant a un 
seuil d'energie E m i n plancher. Si les deux energies E n0 uvmod et E m0 dcour sont 
inferieures a ce seuil d'energie E min plancher, on ignore I'incompatibilite entre 
modeles et on n'effectue ni mise a jour, ni adaptation. En effet, cela signifie 
5 que les energies des deux modeles sont faibles et peu genantes pour la 
reconnaissance locale. 

De la meme maniere, il est preferable de comparer au bloc 522, 
lorsqu'une incompatibility spectrale a ete detectee dans Tun des canaux 
frequentiels i, le ieme coefficient spectral Bi.nouvmod du nouveau modele de 

10 bruit et le ieme coefficient spectral Bj tmodC0U r du modele de bruit courant a un 
ieme coefficient spectral Bi (min plancher. Si les deux iemes coefficients 
spectraux B i( nouvmod Bj.modcour sont inferieurs a ce ieme coefficient spectral 
Bj.min plancher, on ignore I'incompatibilite entre modeles et on n'effectue ni 
mise a jour ni adaptation. En effet, cela signifie que les spectres des deux 

1 5 modeles sont faibles et peu genants pour la reconnaissance vocale. 

Puisque le procede de reconnaissance vocale se deroule en temps 
reel, lorsqu'un nouveau modele de bruit de rang n est detecte alors qu'une 
mise a jour est en cours, on recherche une incompatibilite entre le nouveau 
modele de bruit de rang n et le modele de bruit de rang n-1, devenu un 

20 modele de bruit courant et qui a declenche la mise a jour. Si aucune 
incompatibilite n'est trouvee, la mise a jour a partir du modele de bruit 
courant de rang n-1 est confirmee et le nouveau modele de bruit de rang n 
n'est pas pris en compte pour la mise a jour. II devient nouveau modele de 
bruit pour le debruitage. Si une incompatibilite est detectee, la mise a jour est 

25 annulee, la parametrisation et I'espace de references conservent les 
configurations qu'elles possedaient avant la mise a jour et on continue la 
recherche iterative de nouveaux modeles de bruit. 

On va voir maintenant comment s'effectue I'adaptation de la 
parametrisation lorsqu'une transition de bruit a ete detectee et que de la 

30 parole a ete detectee. On va commencer par expliquer de maniere plus 
detaillee comment fonctionne la chaTne de parametrisation 2 en se referant a 
la figure 2. De maniere classique, les trames numeriques temporelles issues 
du bloc 6 de debruitage sont traitees de maniere a passer dans le domaine 
frequentiel. On determine dans le premier bloc 21, pour chaque trame de 

35 signal utile son energie spectrale dans un certain nombre de bandes 
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frequentielles. Pour cela on applique une transformee de Four/ier aux trames 
de maniere a obtenir une repartition frequentieile de ['amplitude des signaux 
de chacune des trames. On eleve au carre cette amplitude de maniere a 
obtenir le spectre d'energie. 
5 Pour tenir compte des particulates du systeme auditif humain, on 

applique au spectre d'energie Nb fenetres de ponderation, preferentiellement 
des fenetres de Bark au nombre de seize, qui reproduisent la forme des 
filtres du systeme auditif humain de maniere a obtenir les Nb coefficients 
spectraux recherches Bj, par avec i entier compris entre 1 et Nb. Ce sont ces 

10 coefficients spectraux que delivre le bloc 21 . 

L'adaptation de la chaine de parametrisation 2 se fait en calculant 
pour chaque ieme coefficient spectral Bj, par d'une trame de signal utile un 
operateur de robustesse OpRob(B iiPar ) de rang i ayant une fonction de 
ponderation. Le bloc 200 illustre la determination de I'operateur de 

1 5 robustesse OpRob(Bj iPa r) de rang i. 

C'est un facteur compris entre zero et un dont la fonction est de 
traduire la confiance accordee a un coefficient spectral de la trame par 
rapport au niveau de bruit ayant declenche la transition. Dans un meme 
canal frequentiel i, plus la valeur du ieme coefficient spectral d'une trame de 

20 signal utile est proche de la valeur du ieme coefficient spectral du modele de 
bruit ayant declenche la transition, plus la valeur de I'operateur de 
robustesse de rang i se rapproche de un. 

Les donnees qui interviennent dans la determination de I'operateur de 
robustesse a appliquer sont done : la valeur du ieme coefficient spectral 

25 d'une trame de signal utile et le niveau du bruit dans le canal frequentiel i du 
nouveau modele de bruit ayant declenche la transition de bruit. A titre 
illustratif, I'operateur de robustesse peut etre donne par la relation suivante : 



30 avec B i(P ar ieme coefficient spectral d'une trame de signal utile, P(Bj in ou V mod) 
parametre dependant du niveau de bruit du nouveau modele de bruit ayant 
declenche la transition, dans le canal frequentiel i considere. Ce parametre 
gouverne la forme de la fonction regissant I'operateur de robustesse et il 
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varie comme le ieme coefficient spectral Bi, n0 uvmod du modele de bruit ayant 
declenche la transition. Plus P(Bj, n ouvmod) est grand plus I'operateur de 
robustesse se rapproche de zero sur une longue periode. On peut se 
reporter a la figure 4 qui montre revolution de I'operateur de robustesse de 
5 rang i en fonction du ieme coefficient spectral d'une trame de signal utile 
avec un parametre P(Bj. n ou Vm od) valant soit 200 soit 1500. Pour P(Bi, n ouvmod) 
egal a 1500, I'operateur de robustesse reste a zero tant que le coefficient 
spectral n'a pas atteint environ 1000 alors que pour P(B i( nouvmod) egal a 200, 
I'operateur de robustesse commence a croitre des que le coefficient spectral 

10 depasse environ 100. 

Un exemple de dependance pertinent pour le parametre P(Bi in0 uvmod) 
est de lui donner la valeur du ieme coefficient spectral B i( nouvmod du nouveau 
modele de bruit ayant declenche la transition. 

On applique ensuite dans le bloc 210, un operateur de robustesse 

15 OpRob(B jiP ar) ainsi calcule a chacun des Nb coefficients spectraux Bj, P ar issus 
du bloc 21 de maniere a les ponderer. Dans le bloc 22 les Nb coefficients 
spectraux ponderes par I'operateur de robustesse subissent une 
compression pour tenir compte du comportement du systeme auditif humain. 
De maniere classique, cette compression peut etre une compression 

20 logarithmique et plus particulierement une compression Qlog. Cette fonction 
Qlog prend la valeur zero a I'origine au lieu de moins I'infini pour une fonction 
logarithmique pure, et a un comportement logarithmique pour des abscisses 
superieures a zero. D'autres choix sont bien sur possibles. 

Les Nb coefficients spectraux ponderes ainsi compresses sont ensuite 

25 transformes dans le bloc 23. Une transformee en cosinus discrete peut etre 
utilisee par exemple. Le resultat de la transformation permet d'obtenir pour 
chaque trame de signal utile les parametres du vecteur de parametres 
recherche. Une certaine selection peut se faire car certains coefficients 
spectraux ponderes apres transformation ne sont pas significatifs. On choisit 

30 en general de ne conserver que huit parametres qui correspondent aux 
rangs 2 a 9. Le vecteur de parametres est representatif du signal acoustique 
de la trame . 

La figure 5 montre sous forme de blocs la chaine de parametrisation 
dans le procede de reconnaissance vocale de I'invention. Son niveau de 
35 robustesse est adaptee au bruit. 
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II faut que I'espace de references soit mis a jour pour que la phase de 
reconnaissance de formes s'effectue de maniere coherente entre les 
vecteurs de parametres adaptes au bruit et les references modifiees en 
consequence. 

5 On revient a la figure 2. La mise a jour de I'espace de references se 

fait des lors qu'urte transition de bruit a ete detectee. Cette phase 33 de mise 
a jour qui peut durer quelques secondes, doit perturber le moins possible le 
procede de reconnaissance vocale. On cherche a ce que cette phase de 
mise a jour soit transparente pour I'utilisateur du systeme de reconnaissance 

10 vocale. 

Dans I'exemple decrit, on suppose que les references de I'espace de 
references traduisent le contenu de commandes c'est dire des mots ou des 
phrases et qu'elles sont materialisees par des series de vecteurs de 
parametres de base correspondant a des suites de trames de base. Chaque 
15 mot peut etre decrit par une ou plusieurs references en fonction de la 
pronunciation du ou des locuteurs. L'espace de references 32 peut contenir 
des milliers de references. 

La reconnaissance de formes se fait par evaluation d'une serie de 
vecteurs de parametres, issue de la parametrisation, correspondant a 
20 I'empreinte acoustique d'une commande analysee a reconnaltre vis a vis 
d'une serie de vecteurs de parametres de base obtenus lors de la phase 
d'apprentissage, cette serie correspondant a I'empreinte acoustique d'une 
commande de base. De cette evaluation, on deduit une distance entre la 
commande analysee et la commande de reference. La commande de 
25 reference presentant la distance la plus courte avec la commande analysee 
represents la commande a reconnaltre. 

Pour realiser cette phase de reconnaissance de formes, on utilise un 
algorithme par exemple de type DTW. 

Puisque la reconnaissance de formes s'effectue par comparaison 
30 entre vecteurs de parametres, on doit avoir a disposition ces vecteurs de 
parametres de base. On les obtient de la meme maniere que pour les trames 
de signal utile, en calculant pour chaque trame de base son energie 
spectrale dans un certain nombre Nb de canaux frequentiels et en utilisant 
des fenetres de ponderation. Les valeurs d'energie obtenues sont les Nb 
35 coefficients spectraux Bi. bas de base recherches avec i entier compris entre 1 
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et Nb. Apres detection d'une transition de bruit, pour mettre a jour I'espace 
<j e references, on calcule, dans le bloc 300, un operateur de robustesse 
OpRob(Bi.bas) de rang i pour chaque ieme coefficient spectral B itb as de base. 
Comme precedemment ia fonction de cet operateur est de ponderer le 
5 parametre en fonction de sa valeur et du niveau de bruit du modele de bruit 
ayant declenche la mise a jour dans la canal frequentiel considere. A titre 
illustratif, I'operateur de robustesse peut etre donne par la relation suivante : 

0 P R0 b (B,„. ) = { m ax(o,25 + 1^^^. 

avec Bi.bas ierne coefficient spectral de base d'une trame de base de 
references, P(Bi,nouvmod) parametre dependant du niveau de bruit ayant 

10 declenche la transition, dans te canal frequentiel i considere. 

Comme precedemment, un exemple de dependance pertinent pour le 
parametre P(Bi, n ouvmod) est de lui donner a ia valeur du ieme coefficient 
spectral Bj.nouvmod du nouveau modele de bruit ayant declenche la transition. ' 
On applique un tel operateur aux Nb coefficients spectraux de base de 

15 toutes les references de maniere .a obtenir les coefficients spectraux de base 
ponderes. Le nombre de valeurs possibles pour les coefficients spectraux de 
base est beaucoup plus faible que le nombre de references. Pour 
I'application des aeronefs, il est de I'ordre de 300. 

Les coefficients spectraux de base ponderes sont ensuite 

20 compresses, par exemple comme precedemment avec la fonction Qlog. Les 
coefficients spectraux de base ponderes ainsi compresses sont ensuite 
transformes. Une transformee en cosinus discrete peut etre utilisee par 
exemple. Le resultat de la transformation permet d'obtenir pour chaque 
trame son vecteur de parametres adapte au bruit. Ces vecteurs de 

25 parametres mis a jour contribuent a la mise a jours des references. 

On prevoit un premier espace memoire pour stocker les references 
mises a jour et un second espace memoire pour stocker les references 
courantes comme on I'expliquera ulterieurement lors de la description de la 
figure 6 qui illustre une variante de mise a jour de I'espace de references. 

30 Pour optimiser la rapidite de la mise a jour de I'espace de references, 

on peut etre amene a effectuer simultanement la ponderation des coefficients 
spectraux des references par I'operateur de robustesse et la compression 
des coefficients spectraux ponderes. 
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On se refere a la figure 6. Dans une zone memoire 320 de I'espace de 
references 32, on conserve a I'issu de la phase d'apprentissage prealable, 
un ensemble de coefficients spectraux de base compresses, lis sont obtenus 
a partir de la phase d'apprentissage et sont issus de toutes les commandes 
5 possibles dans I'application consideree. Cet ensemble reste fige au cours 
des differents mises a jour. Le nombre de valeurs possibles pour les 
coefficients spectraux de base compresses est petit de I'ordre de 300 par 
exemple dans I'application des aeronefs. 

On prevoit une table de conversion 321 qui permet de passer de 
10 I'ensemble des coefficients spectraux de base compresses a un ensemble 
de coefficients spectraux de base compresses ponderes par I'operateur de 
robustesse. Elle contient, pour la plage de valeurs de I'ensemble des 
coefficients spectraux compresses possibles de la zone 320, son inverse par 
application de I'inverse de la fonction de compression ce qui forme un 
1 5 ensemble de coefficients spectraux de base. Cet ensemble de coefficients 
spectraux de base non compresse est egalement fige au cours des 
differentes mises a jour. 

Pour chaque ieme coefficient spectral de base non compresse de 
I'ensemble, on peut calculer dans le bloc 300 I'operateur de robustesse de 
20 rang i en fonction du nouveau modele de bruit ayant engendre la transition 
de bruit et du coefficient spectral de base. On pondere, dans la table de 
conversion 321, les coefficients spectraux non compresses de I'ensemble 
avec les operateurs de robustesse calcules et on effectue une compression 
pour obtenir un ensemble de coefficients spectraux compresses et ponderes, 
25 c'est a dire mis a jour. Cet ensemble est stocke dans un espace memoire 
322. 

A partir de cet ensemble de coefficients spectraux compresses et mis 
a jour, on va pouvoir effectuer la transformation 323 pour obtenir les 
parametres des vecteurs de parametres et les references mises a jour de 
30 I'espace de references 32. Elles sont stockees dans une zone memoire 324. 
Elles correspondent dans cet exemple a des suites de trames et done a des 
suites de vecteurs de parametres. 

Initialement les references de base issues de I'apprentissage sont 
stockees dans une zone memoire 325 elles forment les references courantes 
35 et servent dans la phase de reconnaissance de formes tant qu'une transition 
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de bruit n'est pas detectee et qu'une mise a jour n'est pas effectuee. Des 
qu'une mise a jour est terminee, les references courantes sont remplacees 
par les references mises a jour. Elles servent dans la phase de 
reconnaissance de formes tant qu'elles ne sont pas remplacees par de 
5 nouvelles references mises a jour. 

Si un sigrtal de parole intervient pendant la phase mise a jour de 
I'espace de references, la phase de reconnaissance de formes se fait avec 
les references courantes qui sont toujours disponibles et la mise a jour est 
suspendue. Le traitement de mise a jour ne retarde done pas la 

10 reconnaissance vocale. Avec une architecture de processeur moderne par 
exemple de type « power PC. 750 » la mise a jour de I'espace de references 
prend moins de 10 secondes. 

Avec une syntaxe d'environ 120 mots et d'un million de phrases a 
reconnaitre possibles, les comparaisons effectuees entre un systeme de 

15 reconnaissance vocale classique tel que celui de la figure 1b et le system© 
conforme a I'invention permettent de tracer les graphiques illustres a la figure 
7. On suppose que ('application est celle de la cabine d'un aeronef dans 
laquelle les locuteurs sont equipes de casques et masques. En abscisse se 
trouve le niveau de bruit ambiant en dBL et en ordonnee le taux de 

20 reconnaissance vocale. La plage de bruit reperee entre les lignes pointillees • 
correspond au bruit en vol. On peut deduire de ces graphiques que le 
systeme de reconnaissance vocale selon I'invention permet de diviser par 
deux le taux d'erreur dans les environnements les plus fortement bruites. 

La description qui vient d'etre faite pour la mise a jour de I'espace de 

25 references se basait sur un espace de references adapte a une 
reconnaissance de formes par calcul de distance minimale. Le procede selon 
I'invention s'applique egalement a une phase de reconnaissance de formes 
qui utilise les probabilites. La phase de reconnaissance de formes utilise 
alors un algorithme par exemple de type HMM. II y a une legere difference 

30 car les references sont des fonctions gaussiennes associees chacune a un 
phoneme et non des series de vecteurs de parametres. Ces fonctions 
gaussiennes sont caracterisees par leur centre et leur ecart-type. Ce centre 
et cet ecart type dependent des parametres de toutes les trames du 
phoneme, e'est a dire des coefficients spectraux compresses de toutes les 

35 trames du phoneme. 
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La mise a jour se fait toujours en appliquant un operateur de 
robustesse de rang i a chaque ieme coefficient spectral de base d'une trame 
de base provenant de Tapprentissage. A partir des coefficients spectraux de 
base ponderes et compresses, on peut elaborer les centres et ecarts types 
5 des fonctions gaussiennes mises a jour et done les references mises a jour. 
La variante illustree a la figure 6 s'applique egalement moyennant une 
transformation appropriee pour passer des coefficients spectraux de base 
compresses et ponderes aux references mises a jour. 

A la lecture de ce qui precede, on constate que le systeme de 
10 reconnaissance vocale qui vient d'etre decrit fonctionne de maniere optimale 
dans toutes les conditions de bruit grace a la presence de I'operateur de 
robustesse. II est done operationnel aussi bien en ambiance de laboratoire 
que dans une voiture ou un aeronef. C'est un systeme autonome et pluri- 
applications. 

15 En mettant en ceuvre le traitement spectral du bruit, puisque 

I'operateur de robustesse associe a un canal _frequentiel dans lequel le bruit 
est fort sera different de I'operateur de robustesse associe a un canal 
frequentiel dans lequel le bruit est faible, on obtient une robustesse et une 
sensibilite optimales quel que soit I'environnement sonore. Les canaux 

20 frequentiels dans lesquels le bruit est tres fort auront du fait de la ponderation 
une importance minimisee dans la determination des parametres. 

Pour I'utilisateur, la mise en place du systeme n'entraine aucune 
charge supplemental. La phase d'apprentissage n'est pas modifiee par 
rapport a ce qui se faisait avant vue de I'utilisateur. On garde juste en 

25 memoire les coefficients spectraux de base ou les coefficients spectraux de 
base compresses si Ton emploie la variante permettant d'accelerer la mise a 
jour. 

En phase de reconnaissance, la phase de detection de transition et la 
phase de mise a jour de Tespace de references sont effectuees en Tabsence 
30 de parole a reconnaitre quand le processeur est inoccupe. Si de la parole 
intervient pendant une mise a jour, on interrompt la mise a jour. Ces 
traitements n'augmentent pas le temps de reponse du systeme. 

La seule contrainte imposee par ia mise en oeuvre du procede est de 
necessiter plus d'espace memoire pour stocker les coefficients spectraux de 
35 base qu'ils soient compresses ou non d'une part et d'autre part pour stocker 
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| es references : les references courantes mais aussi les references mises a 
jour. Dans Tart anterieur un seul espace memoire suffisait pour les 
references. Ces contraintes sont bien limitees. 
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REVENDICATIONS 

1. Procede de reconnaissance vocale dans un signal acoustique 
bruite comprenant : 

5 une phase (1) de numerisation et de decoupage en une suite de trames 
temporelles du signal acoustique bruite, 

une phase (2) de parametrisation de trames temporelles contenant de la 
parole de maniere a obtenir, par trame, un vecteur de parametres dans le 
domaine frequentiel, ce vecteur de parametres traduisant le contenu 

10 acoustique de la trame, 

une phase (3) de reconnaissance de formes dans laquelle on evalue les 
vecteurs de parametres par rapport a des references preenregistrees dans 
un espace de references, lors d'une phase d'apprentissage prealable, de 
maniere a obtenir la reconnaissance par determination d'au moins une 

15 reference la plus proche des vecteurs de parametres, 

- une phase (5) de recherche reiterative, de modeles de bruit successifs dans 
la suite des trames temporelles, un nouveau modele de bruit remplacpant un 
modele de bruit courant, un modele de bruit comportant plusieurs trames 
successives, 

20 caracterise en ce qu'il comporte 

- une phase (50) de recherche d'une transition de bruit entre le nouveau 
modele de bruit et le modele courant, 

et lorsqu'une transition de bruit a ete detectee, en ce qu'il comporte une 
phase (33) de mise a jour de I'espace de references (32) en fonction du 
25 nouveau modele de bruit, la phase de parametrisation (2) incluant une etape 
d'adaptation (200, 210) des parametres au nouveau modele de bruit. 

2. Procede de reconnaissance vocale selon la revendication 1, 
caracterise en ce que la phase (50) de recherche d'une transition de bruit 

30 comporte une etape de recherche d'une incompatibilite energetique et/ou 
une etape de recherche d'une incompatibilite spectrale entre le nouveau 
modele de bruit et le modele courant, la detection d'une incompatibilite 
traduisant une transition de bruit. 
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3. Procede de reconnaissance vocale selon la revendication 2, 
caracterise en ce que I'etape de recherche d'une incompatibilite energetique 
comporte la comparaison du rapport entre I'energie (E n0 uvmod) moyenne du 
nouveau modele de bruit et I'energie (E mod cour) moyenne du modele de bruit 

5 courant avec un seuil bas (S') et un seuil haut (S), une incompatibilite 
energetique etant trouvee si le rapport se place a I'exterieur de I'intervalle 
borne par les deux seuils (S, S'). 

4. Procede de reconnaissance vocale selon la revendication 3, 
10 caracterise en ce que I'etape de recherche d'une incompatibilite energetique 

comporte egalement une comparaison de I'energie (Enouvmod) moyenne du 
nouveau modele de bruit et de I'energie (E m0 dcour) moyenne du modele de 
bruit courant a seuil (E min ) d'energie plancher au-dessous duquel le bruit est 
negligeable, I'incompatibilite energetique determinee par la comparaison du 
15 rapport entre I'energie (Enouvmod) moyenne du nouveau modele de bruit et 
I'energie (E m0 dcour) moyenne du modele de bruit courant etant ignoree lorsque 
I'energie (Enouvmod) moyenne du nouveau modele de bruit et I'energie 
(E m odcour) moyenne du modele de bruit courant sont toutes deux inferieures 
au seuil (Emin) d'energie plancher. 

20 

5. Procede de reconnaissance vocale selon I'une des revendications 1 
a 4, caracterise en ce que I'etape de recherche d'une incompatibilite 
spectrale comporte, a partir de coefficients spectraux (Bi, m0 dcour , Bj in0 uvmod) 
traduisant respectivement I'energie spectrale des trames du modele de bruit 

25 courant et I'energie spectrale des trames du nouveau modele de bruit dans 
au moins un canal frequentiel (i), du rapport entre le coefficient spectral 
(Bi,nouvmod) associe au canal frequentiel (i) du nouveau modele de bruit et le 
coefficient spectral (Bi. m0 dcour) associe au meme canal frequentiel (i) du 
modele de bruit courant avec un seuil bas (Sf) et un seuil haut (Sf), une 

30 incompatibilite spectrale etant trouvee si le rapport se place a I'exterieur de 
I'intervalle borne par les deux seuils (Sf, Sf). 
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6. Procede de reconnaissance vocale selon la revendication 5, 
caracterise en ce que I'etape de recherche d'une incompatibilite spectrale 
comporte egalement, pour au moins un canal frequentiel (i), une 
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comparaison du coefficient spectral (Bjnouvmod) du nouveau modele de bruit 
dans ce canal frequentiel (i) et du coefficient spectral (Bj ( modcour) du modele de 
bruit courant dans ce canal frequentiel (i) a un coefficient spectral plancher 
(Bi.min) associe a ce canal frequentiel (i), plancher au-dessous duquel le bruit 
5 est negligeable, une incompatibility spectrale determinee par la comparaison 
du rapport entre coefficients spectraux etant ignoree lorsque, pour ce canal 
frequentiel (i), les coefficients spectraux du nouveau modele et du modele 
courant sont tous deux inferieurs ieme coefficient spectral plancher (Bj (min ). 

10 7. Procede de reconnaissance vocale selon Tune des revendications 1 

a 6, caracterise en ce que la phase (2) de parametrisation comporte une 
etape de determination de coefficients spectraux (B i( par ) associes chacun a 
un canal frequentiel (i) traduisant chacun une representation de I'energie 
spectrale d'une trame contenant de la parole dans le canal frequentiel (i), 

15 I'etape (200, 210) d'adaptation du jeu de parametres comportant une 
determination, pour chaque coefficient spectral (Bj, pa r), d'un operateur de 
robustesse (OpRob(Bj ( par )) t cet operateur de robustesse traduisant la 
confiance a accorder au coefficient spectral (B it par ) par rapport au niveau de 
bruit du nouveau modele de bruit dans le meme canal frequentiel (i), 

20 une ponderation du coefficient spectral (Bj iPar ) avec I'operateur de robustesse 
(OpRob(B i(Par )), 

une determination du vecteur de parametres a partir des coefficients 
spectraux ponderes. 
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8. Procede selon la revendication 7, caracterise en ce que I'operateur 
de robustesse (OpRob(Bj, par )) verifie la relation suivante : 

f R — pfe ^ 

q 25 + i,par ' \ D i/iouvmod / 



OpRob(B iJW )= max 



B ipar +: 



5.0 



.op(B. V 

V i/iouvmod / 

Bj,p a r etant le coefficient spectral et P(Bj in ouvmod) un parametre dependant du 
niveau de bruit du nouveau modele de bruit ayant declenche la transition, 
dans le canal frequentiel (i). 



9. Procede selon Tune des revendications 1 a 8, caracterise en ce que 
la phase (33) de mise a jour de I'espace de references (32) comporte a partir 



27 



de coefficients spectraux de base associes chacun a un canal frequentiel (i), 
traduisant chacun I'energie spectrale d'une trame de base obtenue lors de la 
phase d'apprentissage, la determination d'un operateur de robustesse 
(OpRob(Bi,bas)) pour chaque coefficient spectral (Bj tb as) de base, cet 
operateur de robustesse traduisant la confiance a accorder au coefficient 
spectral (Bi, b as) par rapport au niveau de bruit du nouveau modele de bruit 
dans le meme canal frequentiel (i), 

la ponderation des coefficients spectraux (B i>bas ) de base avec les operateurs 
de robustesse (OpRob(B i(b as)) respectifs , 

1'elaboration des references mises a jour avec les coefficients spectraux 
ponderes. 

10. Procede selon la revendication 9, caracterise en ce que 
I'operateur de robustesse (OpRob(Bj, bas )) vehfie la relation suivante : 



Bj,bas etant le coefficient spectral de base et P(Bj in0 uvmod) un parametre 
dependant du niveau de bruit du nouveau modele de bruit ayant declenche la 
transition, dans le canal frequentiel (i). 

11. Procede selon Tune des revendications 9 ou 10, dans lequel les 
references sont elaborees a partir de coefficients spectraux de base 
compresses, caracterise en ce qu'il utilise une table de conversion (321) pour 
convertir les coefficients spectraux de base compresses en les coefficients 
spectraux de base compresses et ponderes. 

12. Procede selon la revendication 11, caracterise en ce que la table 
de conversion (321) contient les coefficients spectraux de base (B i(b as) non 
compresses obtenus par application de I'inverse de la fonction de 
compression aux coefficients de base compresses et en ce qu'il comporte 
une determination des operateurs de robustesse (OpRob(Bj ibas )) pour chacun 
des coefficients spectraux de base (B iiba s) non compresses , 

une ponderation des coefficients spectraux de base (B iibas ) non compresses, 





une compression de coefficients spectraux de base non compresses et 
ponderes de maniere a obtenir les coefficients spectraux de base 
compresses et ponderes. 

5 13. Procede selon Tune des revendications 1 a 12, caracterise en ce 

qu'il utilise comme references une suite de trames temporelles 
correspondant a un ou plusieurs mots, cette suite de trames etant identifiee 
par une serie de vecteurs de parametres, ces parametres etant obtenus par 
compression de coefficients spectraux. 

10 

14. Procede selon Tune des revendications 1 a 13, caracterise en ce 
qu'il utilise comme references une suite de trames temporelles 
correspondant a un ou plusieurs phonemes, cette suite de trames etant 
identifiee par le centre et I'ecart type d'une fonction gaussienne, ce centre et 

15 cet ecart type dependant des paramettres des vecteurs de parametres des 
trames. 

15. Procede selon Tune des revendications 1 a 14, caracterise en ce 
qu'il comporte une phase (6) de debruitage des trames temporelles 

20 contenant de la parole avant la phase (2) de parametrisation. 

16. Systeme de reconnaissance vocale dans un signal acoustique 
bruite pour la mise en ceuvre du procede selon Tune des revendications 1 a 
15, caracterise en ce qu'il comprend : 

25 des moyens (1) pour acquerir le signal acoustique • le numeriser et le 
decouper en trames temporelles, 

une chaine de parametrisation (2) pour traduire les trames temporelles 
contenant de la parole en des vecteurs de parametres dans le domaine 
frequentiel, 

30 des moyens de reconnaissance de formes (3) avec un espace (32) de 
references acquises lors d'un apprentissage, pour comparer les vecteurs de 
parametres issus de la chaine de parametrisation aux references, de 
man jere a obtenir la reconnaissance par determination d'une reference se 
rapprochant le plus des vecteurs de parametres, 
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des moyens (5) de modelisation du bruit pour elaborer de maniere reiterative 
des modeles de bruit, un nouveau modele de bruit remplagant un modele de 
bruit courant, 

des moyens (50) de detection d'une transition de bruit entre le nouveau 
5 modele de bruit et le modele de bruit courant, 

des moyens (200,210) pour adapter la chaine de parametrisation au bruit du 
nouveau modele de bruit ayant declenche la transition de bruit, 
des moyens (33) pour mettre a jour les references de I'espace de references 
(32) en fonction du niveau de bruit du nouveau modele de bruit ayant 
10 declenche a la transition de bruit. 

17. Systeme de reconnaissance vocale selon la revendication 16, 
caracterise en ce que les moyens (33) pour mettre a jour les references de 
I'espace de references (32) comportent un premier espace memoire (324) 
15 pour stocker les references mises a jour, ces references mises a jour devant 
remplacer des references courantes utilisees pour la reconnaissance de 
formes avant la detection de la transition de bruit, ces references courantes 
etant stockees dans un second espace memoire (325). 

20 18. Systeme de reconnaissance vocale selon Tune des revendications 

16 ou 17, caracterise en ce qu'il comporte un espace memoire (320) pour 
stocker des coefficients spectraux de base compresses obtenus a partir de 
coefficients spectraux de base associes chacun a un canal frequentiel (i), ces 
coefficients spectraux de base traduisant chacun I'energie spectrale d'une 

25 trame de base issue de I'apprentissage, une table de conversion (321) pour 
convertir les coefficients spectraux de base compresses en des coefficients 
spectraux de base compresses, ponderes chacun par un operateur de 
robustesse (OpRob(Bj.bas)) fonction du niveau de bruit du nouveau modele de 
bruit ayant declenche la transition et du coefficient spectral (Bi, ba s)de base a 

30 ponderer, ces coefficients spectraux de base compresses et ponderes etant 
utilises pour la mise a jour des references de I'espace de references. 

19. Systeme de reconnaissance vocale selon Tune des revendications 
16 ou 17, caracterise en ce qu'il comporte des moyens (6) pour debruiter les 
35 trames temporelles contenant de la parole avant leur parametrisation. 
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modele de bruit courant, un modele de bruit comportant plusieurs trames 
successives, 

caracterise en ce qu'il comporte 

- une phase de recherche d'une transition de bruit entre le nouveau modele 
5 de bruit et le modele courant, 

et lorsqu'une transition de bruit a ete detectee, en ce qu'il comporte une 
phase de mise a jour de I'espace de references en fonction du nouveau 
modele de bruit, la phase de parametrisation incluant une etape d'adaptation 
des parametres au nouveau modele de bruit. 

10 Plus precisement la phase de recherche d'une transition de bruit peut 

comporter une etape de recherche d'une incompatibilite energetique et/ou 
une etape de recherche d'une incompatibilite spectrale entre le nouveau 
modele de bruit et le modele courant, la detection d'une incompatibilite 
traduisant une transition de bruit. 

15 L'etape de recherche d'une incompatibilite energetique peut 

comporter la comparaison du rapport entre I'energie moyenne du nouveau 
modele de bruit et I'energie moyenne du modele de bruit courant avec un 
seuil bas et un seuil haut, une incompatibilite energetique etant trouvee si le 
rapport se place a I'exterieur de I'intervalle borne par les deux seuils. 

20 Pour eviter des adaptations et des mises a jour trop frequentes 

lorsque le bruit n'est pas vraiment genant, l'etape de recherche d'une 
incompatibilite energetique peut comporter egalement une comparaison de 
I'energie moyenne du nouveau modele de bruit et de I'energie moyenne du 
modele de bruit courant a seuil d'energie plancher au-dessous duquel le bruit 

25 est negligeable, I'incompatibilite energetique determinee par la comparaison 
du rapport entre I'energie moyenne du nouveau modele de bruit et I'energie 
moyenne du modele de bruit courant etant ignoree lorsque I'energie 
moyenne du nouveau modele de bruit et I'energie moyenne du modele de 
bruit courant sont toutes deux inferieures au seuil d'energie plancher. 

30 L'etape de recherche d'une incompatibilite spectrale peut comporter, a 

partir de coefficients spectraux traduisant respectivement I'energie spectrale 
des trames du modele de bruit courant et I'energie spectrale des trames du 
nouveau modele de bruit dans au moins un canal frequentiel, une 
comparaison du rapport entre le coefficient spectral associe au canal 

35 frequentiel du nouveau modele de bruit et le coefficient spectral associe au 






meme canal frequentiel du modele de bruit courant avec un seuil bas et un 
seuil haut, une incompatibilite spectrale etant trouvee si le rapport se place a 
I'exterieur de I'intervalle borne par les deux seuils. 

Toujours pour eviter des mises a jour et des adaptations trop 
5 frequentes qui ne seraient pas vraiment justifiees, I'etape de recherche d'une 
incompatibilite spectrale peut comporter egalement, pour au moins un canal 
frequentiel, une comparaison du coefficient spectral du nouveau modele de 
bruit dans ce canal frequentiel et du coefficient spectral du modele de bruit 
courant dans ce canal frequentiel a un coefficient spectral, plancher dans ce 

10 canal frequentiel, plancher au-dessous duquel le bruit est negligeable, une 
incompatibilite spectrale determinee par la comparaison du rapport entre 
coefficients spectraux etant ignoree lorsque, dans ce canal frequentiel, les 
coefficients spectraux du nouveau modele et du modele courant sont tous 
deux inferieurs au coefficient spectral plancher. 

-i 5 La phase de parametrisation peut comporter une etape de 

determination de coefficients spectraux associes chacun a un canal 
frequentiel traduisant chacun I'energie spectrale d'une trame contenant de la 
parole dans le canal frequentiel, 

I'etape d'adaptation des parametres comportant une determination, pour 
20 chaque coefficient spectral, d'un operateur de robustesse qui traduit la 
confiance a accorder au coefficient spectral par rapport au niveau de bruit,, 
dans le meme canal frequentiel, du nouveau modele de bruit ayant 
declenche la transition, une ponderation du coefficient spectral avec 
I'operateur de robustesse, une determination du vecteur de parametres a 
25 partir des coefficients spectraux ponderes. 

L'operateur de robustesse pour la parametrisation peut verifier la 
relation suivante : 



Bi.par etant le coefficient spectral et P(B it nou V mod) un parametre dependant du 
30 niveau de bruit du nouveau modele de bruit ayant declenche la transition, 
dans le canal frequentiel i. 

La phase de mise a jour de I'espace de references peut comporter, a 
partir de coefficients spectraux de base associes chacun a un canal 
frequentiel, traduisant chacun I'energie spectrale d'une trame de base 
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reconnaissance vocale reference 1 00 recoit en entree un signal acoustique 
temporel qui est forme, par moment au moins, d'un signal utile, la parole 
recherchee, auquel s'ajoute un signal de bruit, du bruit seul ou de la parole 
seule. On retrouve comme sur les figures 1a, 1 b un bloc d'acquisition 1 qui 
recoit le signal acoustique, le numerise par echantillonnage et le decoupe en 
frames d'une pluralite d'echantillons. Un premier module 7 classique en soit 
recoit les frames et discrimine dans leur signal acoustique le signal utile du 
signal de bruit. La discrimination entre parole et bruit est un traitement de 
signal classique et bien connu. Differentes methodes sont connues et elles 
reposent sur les constations suivantes. Les bruits et la parole se superposent 
en terme d'energie, de sorte qu'un signal acoustique contenant de la parole 
et du bruit ambiant contient plus d'energie qu'un signal de bruit ambiant seul. 
Le bruit ambiant possede une energie relativement stable et faible a court 
terme. La parole est le plus souvent precedee d'un bruit de respiration qui 
s'eteint quelques dizaines a centaines de millisecondes avant la premiere 
emission de parole, de sorte qu'on ne retrouve que le bruit ambiant seul juste 
avant remission de parole. Les spectres de certains phonemes, notamment 
les phonemes correspondant aux voyelles et a des consonnes voisees, 
possedent une periodicite caracteristique. 

Lorsque de la parole est detectee, les trames de signal utile contenant 
a la fois la parole a reconnaitre et le bruit ambiant sont envoyees vers le 
module 2 de parametrisation qui sera decrit ulterieurement. Avant de debuter 
la parametrisation effective, on peut prevoir un traitement de debruitage 
illustre par le bloc 6 decrit ulterieurement. On trouve ensuite dans la chaine 
de reconnaissance vocale le bloc 3 de reconnaissance de formes qui delivre 
de la parole reconnue 4, ce bloc de reconnaissance de formes inclut I'espace 
de references 32 

En sortie du bloc de detection de parole 7, les trames de bruit seul 
sont isolees et envoyees a un module de modelisation du bruit 5. 
L'elaboration d'un modele de bruit a partir d'un signal bruite est classique en 
soit. Un procede de recherche reiterative de modeles de bruit tout 
particulierement adapte aux applications principales visees par le systeme de 
reconnaissance vocale de invention est decrit dans la demande francaise 
FR-2 765 715. 
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preference inverses I'un de I'autre S' = 1/S, de fait la determination d'un seul 
des deux suffit. Par exemple une valeur typique est S = 4 et done S'= 0,25. 
La vaieur du seuil permet de fixer la frequence de detection des transitions et 
done la frequence de modification de la chaine de parametrisation et de mise 

5 a jour de I'espace de references. On cherche a eviter une frequence trop 
grande qui imposerait un flux de mise a jour de I'espace de references 
incompatible avec la puissance de calcul a disposition. Si une incompatibilite 
energetique est detectee, on va mettre a jour I'espace de references et 
adapter la parametrisation au nouveau modele de bruit qui a genere la 

10 transition de bruit. Cette adaptation et cette mise a jour seront expliquees 
ulterieurement. 

Si aucune incompatibilite energetique est detectee, on effectue une 
recherche d'incompatibilite spectrale au bloc 502. On aurait pu commencer 
par la recherche de I'incompatibilite spectrale, I'ordre n'a pas d'importance. 

15 Pour statuer sur I'incompatibilite spectrale, on va passer dans le 

domaine frequentiel, on compare pour chacun des canaux frequentiels i (i 
entier compris entre 1 et Nb), le coefficient spectral Bj.nouvmod associe au 
canal i du nouveau modele de bruit au coefficient spectral B iim0 dcour associe 
au meme canal du modele de bruit courant. Chaque coefficient spectral 

20 traduit I'energie spectrale de toutes les trames d'un modele de bruit dans le 
canal frequentiel considere. 

Pour obtenir les coefficients spectraux d'un modele de bruit on 
applique une transformee de Fourier aux trames du modele de bruit de 
maniere a obtenir une repartition frequentielle de I'amplitude des signaux de 

25 bruit de chacune des trames. On eleve au carre cette amplitude de maniere 
a obtenir le spectre d'energie. On calcule ensuite le spectre moyen d'energie 
du modele en sommant, pour une meme bande frequentielle, les spectres 
d'energie de toutes les trames et en divisant par le nombre N de trames du 
modele. Pour tenir compte des particularites du systeme auditif humain, on 

30 applique au spectre moyen d'energie Nb fenetres de ponderation, 
preferentiellement des fenetres de Bark au nombre de seize, qui 
reproduisent la forme des filtres du systeme auditif humain de maniere a 
obtenir les Nb coefficients spectraux recherches. 

Les caracteristiques des fenetres de Bark sont bien connues dans 

35 I'etat de Tart et il est inutile de les decrire plus avant. Pour plus de details, on 
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frequentielles. Pour cela on applique une transformee de Fourier aux trames 
de manure a obtenir une repartition frequentielle de I'amplitude des signaux 
de chacune des trames. On eleve au carre cette amplitude de maniere a 
obtenir le spectre d'energie. 
5 Pour tenir compte des particularites du systeme auditif humain, on 

applique au spectre d'energie Nb fenetres de ponderation, preferentiellement 
des fenetres de Bark au nombre de seize, qui reproduisent la forme des 
filtres du systeme auditif humain de maniere a obtenir les Nb coefficients 
spectraux recherches Bi, pa r avec i entier compris entre 1 et Nb. Ce sont ces 

10 coefficients spectraux que delivre le bloc 21 . 

L'adaptation de la chaine de parametrisation 2 se fait en calculant 
pour chaque ieme coefficient spectral B jiPa r d'une trame de signal utile un 
operateur de robustesse OpRob(B i(Pa r) de rang i ayant une fonction de 
ponderation. Le bloc 200 illustre la determination de I'operateur de 

15 robustesse OpRob(B i(Pa r) de rang i. 

C'est un facteur compris entre zero et un dont la fonction est de 
traduire la cbnfiance accordee a un coefficient spectral" de la trame par 
rapport au niveau de bruit ayant declenche la transition. Dans un meme 
canal frequentiel i, plus la valeur du ieme coefficient spectral d'une trame de 

20 signal utile est proche de la valeur du ieme coefficient spectral du modele de 
bruit ayant declenche la transition, plus la valeur de I'operateur de 
robustesse de rang i se rapproche de un. 

Les donnees qui interviennent dans la determination de I'operateur de 
robustesse a appliquer sont done ; la valeur du ieme coefficient spectral 

25 d'une trame de signal utile et le niveau du bruit dans le canal frequentiel i du 
nouveau modele de bruit ayant declenche la transition de bruit. A titre 
illustratif, I'operateur de robustesse peut etre donne par la relation suivante : 



OpRob(B jpar )= max 



q 2 g J^ar 1 i^ouvmod J q 

1 R -f2P(B ) 

ipar \ i.nouvmod / J 



30 avec Bj (Par ieme coefficient spectral d'une trame de signal utile, P(B jtn0 uvmod) 
parametre dependant du niveau de bruit du nouveau modele de bruit ayant 
declenche la transition, dans le canal frequentiel i considere. Ce parametre 
gouverne la forme de la fonction regissant I'operateur de robustesse et il 
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3. Procede de reconnaissance vocale selon la revendication 2 ( 
caracterise en ce que I'etape de recherche d'une incompatibility energetique 
comporte la comparaison du rapport entre I'energie (Enouvmod) moyenne du 
nouveau modele de bruit et I'energie (Emodcour) moyenne du modele de bruit 

5 courant avec un seuil bas (S') et un seuil haut (S), une incompatibilite 
energetique etant trouvee si le rapport se place a I'exterieur de rintervalle 
borne par les deux seuils (S t S'). 

4. Procede de reconnaissance vocale selon la revendication 3, 
10 caracterise en ce que I'etape de recherche d'une incompatibilite energetique 

comporte egalement une comparaison de I'energie (E no uvmod) moyenne du 
nouveau modele de bruit et de I'energie (E m0 dcour) moyenne du modele de 
bruit courant a seuil (E mtn ) d'energie plancher au-dessous duquel le bruit est 
negligeable, I'incompatibilite energetique determinee par la comparaison du 
15 rapport entre I'energie (Enouvmod) moyenne du nouveau modele de bruit et 
I'energie (E mod cour) moyenne du modele de bruit courant etant ignoree lorsque 
I'energie (Enouvmod) moyenne du nouveau modele de bruit et I'energie 
(Emodcour) moyenne du modele de bruit courant sont toutes deux inferieures 
au seuil (E m in) d'energie plancher. 

20 

5. Procede de reconnaissance vocale selon I'une des revendications 1 
a 4, caracterise en ce que I'etape de recherche d'une incompatibilite. 
spectrale comporte, a partir de coefficients spectraux (Bj .modcour i Bj ( nouvmod) 
traduisant respectivement I'energie spectrale des trames du modele de bruit 

25 courant et I'energie spectrale des trames du nouveau modele de bruit dans 
au moins un canal frequentiel (i), une comparaison du rapport entre le 
coefficient spectral (Bj,nouvmod) associe au canal frequentiel (i) du nouveau 
modele de bruit et le coefficient spectral (B i)m0 dcour) associe au meme canal 
frequentiel (i) du modele de bruit courant avec un seuil bas (Sf ) et un seuil 

30 haut (Sf), une incompatibilite spectrale etant trouvee si le rapport se place a 
I'exterieur de rintervalle borne par les deux seuils (Sf, Sf). 

6. Procede de reconnaissance vocale selon la revendication 5, 
caracterise en ce que I'etape de recherche d'une incompatibilite spectrale 

35 comporte egalement, pour au moins un canal frequentiel (i), une 
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comparaison du coefficient spectral (Binouvmod) du nouveau modele de bruit 
dans ce canal frequentiel (i) et du coefficient spectral (B i( modcour) du modele de 
bruit courant dans ce canal frequentiel (i) a un coefficient spectral plancher 
(Bj.min) associe a ce canal frequentiel (i), plancher au-dessous duquel le bruit 
5 est negligeable, une incompatibility spectrale determinee par la comparaison 
du rapport entre coefficients spectraux etant ignoree lorsque, pour ce canal 
frequentiel (i), les coefficients spectraux du nouveau modele et du modele 
courant sont tous deux inferieurs au coefficient spectral plancher (Bj t min). 

10 7. Procede de reconnaissance vocale selon Tune des revendications 1 

a 6, caracterise en ce que la phase (2) de parametrisation comporte une 
etape de determination de coefficients spectraux (B it par ) associes chacun a 
un canal frequentiel (i) traduisant chacun une representation de I'energie 
spectrale d'une trame contenant de la parole dans le canal frequentiel (i), 

15 I'etape (200, 210) d'adaptation du jeu de parametres comportant une 
determination, pour chaque coefficient spectral (Bj, par ), d'un operateur de 
robustesse (OpRob(B it pa r)), cet operateur de robustesse traduisant la 
confiance a accorder au coefficient spectral (Bj, par ) par rapport au niveau de 
bruit du nouveau modele de bruit dans le meme canal frequentiel (i), 

20 une ponderation du coefficient spectral (Bj, par ) avec I'operateur de robustesse 

(OpRob(Bi, par)), 

une determination du vecteur de parametres a partir des coefficients 
spectraux ponderes. 

25 8. Procede selon la revendication 7, caracterise en ce que Toperateur 

de robustesse (OpRob(B iiP ar)) verifie la relation suivante : 



Bj.par etant le coefficient spectral et P(Bi, n ouvmod) un parametre dependant du 
niveau de bruit du nouveau modele de bruit ayant declenche la transition, 
dans le canal frequentiel (i). 



9. Procede selon Tune des revendications 1 a 8, caracterise en ce que 
la phase (33) de mise a jour de I'espace de references (32) comporte a partir 
de coefficients spectraux de base associes chacun a un canal frequentiel (i), 
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13. Procede selon Tune des revendications 1 a 12, caracterise en ce 
qu'il utilise comme references une suite de trames temporelles 
correspondant a un ou plusieurs mots, cette suite de trames etant identifiee 

5 par une s6rie de vecteurs de parametres, ces parametres etant obtenus par 
compression de coefficients spectraux. 

14. Procede selon Tune des revendications 1 a 13, caracterise en ce 
qu'il utilise comme references une suite de trames temporelles 

10 correspondant a un ou plusieurs phonemes, cette suite de trames etant 
identifiee par le centre et I'ecart type d'une fonction gaussienne, ce centre et 
cet ecart type dependant des parametres des vecteurs de parametres des 
trames. 

15 15. Procede selon Tune des revendications 1 a 14, caracterise en ce 

qu'il comporte une phase (6) de debruitage des trames temporelles 
contenant de la parole avant la phase (2) de parametrisation. 

16. Systeme de reconnaissance vocale dans un signal acoustique 
20 bruite pour la mise en ceuvre du procede selon Tune des revendications 1 a 
15, caracterise en ce qu'il comprend : 

des moyens (1) pour acquerir le signal acoustique le numeriser et le 
decouper en trames temporelles, 

une chaine de parametrisation (2) pour traduire les trames temporelles 
25 contenant de la parole en des vecteurs de parametres dans le domaine 
frequentiel, 

des moyens de reconnaissance de formes (3) avec un espace (32) de 
references acquises lors d'un apprentissage, pour comparer les vecteurs de 
parametres issus de la chaine de parametrisation aux references, de 
30 maniere a obtenir la reconnaissance par determination d'une reference se 
rapprochant le plus des vecteurs de parametres, 

des moyens (5) de moderation du bruit pour elaborer de maniere reiterative 
des modeles de bruit, un nouveau modele de bruit rempla?ant un modele de 
bruit courant, 
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